查看原文
其他

论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)

伍思航 CSIG文档图像分析与识别专委会 2022-07-11

一、研究背景



文档版面分析任务通常是指分析文档的版面结构,并划分为不同的版面区域(如标题、文本、图片、表格等类别),方便后续版面复原,篇章分析,结构化信息提取等任务。本文简要介绍海康威视和浙大发表在ICDAR 2021 (Oral) 的文档版面分析方法VSR。该方法获得了ICDAR 2021 Scientific Literature Parsing版面分析任务的冠军[1]。与单一使用NLP-based的序列标注方法或CV-based的检测分割方法不同,该方法结合文档图像的视觉(Vision)信息,PDF解析得到的文本语义(Semantic)信息,以及版面区域布局关系(Relation)等多模态信息进行版面分析。代码即将开源。 

图1. NLP-based, CV-based和VSR的方法框架

二、VSR原理简述



VSR方法基于Mask R-CNN [2]框架。首先使用双流网络分别提取图像视觉和文本语义特征(下图左边绿、蓝部分),然后经过多尺度自适应聚合模块(下图中间橙色部分)进行特征融合,后续利用Mask R-CNN检测分割得到各个版面区域,最后使用基于Attention的GNN [3]来Refine得到最终结果(下图右半部分所示)。整个方法端到端优化,简洁有效。  

图2. VSR方法的整体架构

视觉分支(Visual Stream):

文档图像经过ResNet系列主干网络得到各stage输出的多尺度特征。

语义分支(Semantic Stream):

首先从PDF中解析处理得到字符级别和行级别的检测识别结果。单个字符区域使用相同的Embedding,单个语句行区域(此处简化语句为文本行)使用相同的预训练好的Bert [4]映射编码,分别得到2D表示的字符级CharGrid [5]和文本行级SentGrid [6]的编码图,如图2所示。公式如下,其中是第k个字符,是字符的左上角和右下角像素点表示边界框是Word Embedding Layer映射编码,类似地有是Bert预训练编码。 

将CharGrid和SentGrid融合后得到Text Embedding Map,即,其与原图长宽大小一致,通道数不同,同样的经过ResNet系列主干得到多层级特征: 

多尺度自适应融合模块( Multi-scale Adaptive Aggregation)

如下公式,将两支路对应层级的视觉特征图V_i和语义特征图Concate([])后经过卷积(g)和激活函数(h)得到Attention Maps,利用其加权得到融合特征,作为Mask R-CNN的FPN输入,并继续后面检测分割流程。 

关系模块(Relation Module)

在Mask R-CNN输出各个Component Candidates结果后,每个Component Candidate的多模态特征和空间位置信息作为GNN的顶点特征。所有的顶点构建成全连通图,利用基于Attention的GNN [3]建模学习顶点的Relation,然后利用GNN Refined的特征进行回归和分类,得到最终的结果。详细过程可阅读原文。 

图3. 关系模块

整个VSR方法的损失函数包括Mask R-CNN和GNN两个部分各自的分类(CE)、回归(Smooth L1)损失[7]。 

三、主要实验结果及可视化效果



VSR在三个数据集Article Regions、PubLayNet、DocBank都表现出优异的性能,另外在今年ICDAR-2021 Task A任务取得冠军[1]。消融实验也验证了视觉、语义、关系各模块在性能上有效地相互促进。 


 


 

Table 8. ICDAR-2021 Task A Results 

四、总结及讨论



VSR方法有效地结合了文档视觉和语义特征,并引入GNN建模版面元素之间的关系来调优最终结果。整个方法结构优雅,端到端简洁有效,扩展性强,在多个数据集上性能表现优异。不足是文档语义信息需要预先获得,例如需要解析文档图像对应的PDF来获取OCR结果,如果只有纯图片输入则可能需要先经过OCR引擎。

五、相关资源



  • VSR论文地址:

    会议版本:

    https://link.springer.com/content/pdf/10.1007%2F978-3-030-86549-8_8.pdf

    arXiv版本:
    https://arxiv.org/pdf/2105.06220.pdf

  • VSR开源网站:
    https://github.com/hikopensource/DAVAR-Lab-OCR

  • 海康威视DAVAR-Lab:
    https://davar-lab.github.io/competition/icdar2021slp-a.html

  • 其他博客对该文解读:
    https://bbs.huaweicloud.com/blogs/281178

参考文献



[1] Jimeno Yepes A, Zhong P, Burdick D. ICDAR 2021 Competition on Scientific Literature Parsing[C]//International Conference on Document Analysis and Recognition. Springer, Cham, 2021: 605-617.
[2] He, K., Gkioxari, G., Doll´ar, P., Girshick, R.B.: Mask R-CNN. In: ICCV, pp. 2980–2988 (2017)
[3] Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Li`o, P., Bengio, Y.: Graph attention networks. In: ICLR (2018)
[4] Devlin, J., Chang, M., Lee, K., Toutanova, K.: BERT: pre-training of deep bidirectional transformers for language understanding. In: NAACL-HLT, pp. 4171–4186 (2019)
[5] Barman, R., Ehrmann, M., Clematide, S., Oliveira, S.A., Kaplan, F.: Combining visual and textual features for semantic segmentation of historical newspapers. CoRR https://arxiv.org/abs/2002.06144 (2020)
[6] Yang, X., Yumer, E., Asente, P., Kraley, M., Kifer, D., Giles, C.L.: Learning to extract semantic structure from documents using multimodal fully convolutional neural networks. In: CVPR, pp. 4342–4351 (2017)
[7] Ren, S., He, K., Girshick, R.B., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. In: NeurIPS, pp. 91–99 (2015)


原文作者: Peng Zhang, Can Li, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu, and Fei Wu


撰稿:伍思航

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存